[t:/]$ 지식_

하이퍼포먼스 스파크

2024/09/11

https://www.yes24.com/Product/Goods/61112955

사무실에 굴러다니길래 봤다.

좀 오래된 책이긴 하지만 슥슥 필요한 부분만 30분 정도로 읽을만하다. 물론 나는 그보다 잠깐 봤다.

스칼라 기준이므로 코드는 나에게 유용하지 않다.

특기할 만한 사항으로는

  1. groupByKey는 위험하다. - 사실 키뭉침에 의한 불균형 문제는 MR 이래로 항상 마주하는 문제다.
  2. 직렬화/역직렬화 문제는 대부분 해소됐지만 DF를 써라. DF의 텅스텐은 훌륭하다.
  3. pipe나 jni를 쓸 수 있다. 물론 나도 해보긴 했는데 그냥 쓰지 말자.
  4. pyspark는 여전히 중간에 쓰리쿠션 문제가 있다.

나는 여전히 MR과 RDD를 좋아한다.

스파크 커뮤니티 진영에서는 여전히 그냥 스칼라 쓰세요, RDD 쓰지 마세요가 대세일 것 같다. 어쩌면 RDD는 이제 아예 인터페이스 안 쪽으로 감춰버릴지도 모르겠다. 이제 금지에요라며. 그리고 누군가는 해킹하는 법을 공유하고 엉망진창이 될 지도 모른다. 추상화는 인본주의이므로 항상 지향해야 할 바이지만 그렇다고 (생략)

스파크 스트리밍은 여전히 안 해봤는데 앞으로도 안 쓸 것 같다. 이유는 이렇다.

  1. 차라리 내가 만드는게 낫다.
  2. 하지만 조직은 언제나 카프카에 붙인 단주기 배치를 쓰라고 할 것이다.




공유하기













[t:/] is not "technology - root". dawnsea, rss